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摘 要 : 本 文 设计 一 种 基于 大 数据 的 选 题 调研 方法 ， 辅 助 图 书 编辑 从 研究 大 数据 背景 下 的 信息 资源 开展 选 题 策 划 工 作 。 首 先 
分 析 图 书 编辑 领域 需求 ， 了 解 出 版 行业 选 题 策划 背景 ; 其 次 基于 大 数据 采集 图 书信 息 ， 保 证 图 书 数据 的 真实 性 ; 接着 展开 数 
据 驱动 选 题 策划 的 可 行 性 分 析 ， 从 市 场 需求 与 供给 两 个 层面 优化 图 书 选 题 方向 ， 提 升 图 书 选 题 的 受 欢 迎 程度 ， 从 而 实现 由 数 
据 驱 动 的 选 题 策划 模式 来 辅助 编辑 的 选 题 工作 与 决策 。 最 后 采用 对 比 实验 的 方式 证 明了 这 一 方法 具有 可 研究 和 推广 价值 。 
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导语 息 的 准确 。 在 当前 的 图 书市 场 中 ， 图 书信 息 在 各 大 购物 

全 球 经 济 正在 迅猛 发 展 ， 人 们 进入 了 大 数据 时 代 。 网 站 上 分 布 广泛 ， 图 书 销售 的 数据 量 大 、 增 长 速度 快 ， 
面 对 庞 大 的 图 书市 场 ， 图 书 可 选 信 息 越发 繁杂 ， 图 书 编 ”数据 获取 随 之 增加 。 要 想 迅速 识别 图 书市 场 的 有 用 信息 ， 
辑 如 何 从 其 中 筛选 出 符合 市 场 需求 的 信息 是 极为 重要 的 。 利用 大 数据 技术 开展 图 书市 场 需求 的 分 析 就 可 以 高 效 达 
工作 。 中 因为 一 旦 图 书 编辑 没有 了 解 到 市 场 的 真实 需求 ， 成 ， 且 能 进一步 保证 数据 的 精准 度 。 基 于 此 ， 本 文 使 用 


Ll 


就 会 导致 所 策划 的 图 书 无 法 得 到 市 场 认 可 ， 从 而 对 销量 《大 数据 背景 下 的 Hive 数据 管理 技术 ， 对 图 书 数据 进行 管 
产生 巨大 影响 ， 直 接 威胁 着 图 书 企 业 的 生存 发 展 。 图 书 ” 理 ， 完 整 的 模块 信息 如 下 图 1 所 示 。 

编辑 作为 一 个 肩负 着 传播 知识 的 历史 使 命 的 传统 行业 从 
业者 ， 在 此 大 环境 下 同样 面临 着 大 数据 时 代 带 来 的 新 挑 


选 题 策划 数据 驱动 模块 


战 。 巴 当前， 我 国 出 版 业 面临 着 图 书 消 费 需求 增长 变 缓 ， [EC 

图 书 成 本 提高 、 库 存 加 重 等 问题 ， 造 成 图 书 行业 面临 很 

大 的 发 展 困境 。 因 此 图 书 行业 迫切 需要 深化 改革 ,其 中 

图 书 选 题 的 进一步 优化 是 改革 重点 之 一 ， 选 题 策划 是 图 。 | 时 六 同 | 

书 编辑 进行 决策 的 关键 步 又 ， 一 本 图 书 的 成 功 发 行 ， 离 和 这 | | 和 和 名 | | 才 

不 开 准 确 有 效 的 选 题 策划 。 信 | | 合作 信息 | | 信息 
图 书 编辑 可 以 根据 出 版 社 的 选 题 方向 、 市 场 需求 、 

读者 体验 等 大 数据 分 析 结 果 进 行 具体 分 析 规 划 。 在 图 书 图 1 基于 大 教 据 的 图 书 选 题 策划 信息 模块 

的 多 样 化 、 个 性 化 、 社 会 化 的 特征 基础 上 ， 准 确 了 解 大 

众 的 阅读 倾向 和 阅读 需求 ， 分 析出 图 书 消费 市 场 的 风向 如 图 1 所 示 ， 在 大 数据 的 应 用 下 ， 图 书 选 题 策划 数 

动态 ， 及 时 搜集 整理 图 书市 场 的 热点 信息 ， 最 大 限度 地 。” 据 驱动 模块 可 以 分 为 图 书 数据 提取 模块 、 图 书 数据 存储 

判断 图 书市 场 的 趋势 ， 有 效 掌 握 公众 反馈 信息 ， 为 选 题 ” 模块 、 图 书 元 数据 模块 、 选 题 策划 模块 四 部 分 ， 每 个 模 

决策 提供 依据 。 块 的 特征 向 量 均 会 存在 不 同 的 权重 。 由 于 图 书 购 买 用 户 

1. 基于 大 数据 的 选 题 调 研 案例 设计 不 同 ， 根 据 用 户 信 息 可 以 分 析出 用 户 的 需求 书籍 类 型 ， 

1.1 分 析 图 书 编辑 在 选 题 策划 中 的 数据 需求 在 图 书 买卖 过 程 中 ， 会 出 现 不 同 浏览 行为 ， 通 过 图 书 翻 


图 书市 场 的 价格 趋势 ， 读 考 购买 量 和 阅读 习惯 , 图 。 阅 次 数 、 图 书 购买 次 数 、 图 书评 价 等 信息 ， 可 以 指导 图 
书 各 渠道 销售 情况 的 收集 、 处 理 和 分 析 均 来 自 图 书市 场 ” 书 的 选 题 策划 方向 。" 此 外 ， 本 文 设计 的 图 书 选 题 策划 
的 反 饿 ， 这 其 中 蕴含 着 很 多 机 遇 ， 进 而 形成 新 的 图 书 选 ” 方法 ,会 根据 图 书 近 期 销售 进行 预测 ， 如 果 对 用 户 的 预 
题 策划 .中 图书 编辑 要 对 市 场 趋势 消费 者 反馈 、 竞 品 图 书 、” 测 成 功 ， 则 说 明 策划 方案 是 成 功 的 ; 如 果 失 败 ， 则 需要 
推广 方式 、 和 便利 能 力 等 信息 进行 了 解 ， 需 要 保证 图 书信 ”进一步 分 析 图 书 购 买 需求 ， 完 善 选 题 策划 的 多 样 性 与 丰 
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富 性 。 在 使 用 大 数据 技术 过 程 中 ， 需 要 对 用 户 的 图 书 购 
买 特征 进行 分 析 , 去 除 从 众 因 素 , 保证 图 书 数据 的 真实 性 。 
根据 大 数据 分 析 结 果 对 图 书市 场 需求 进行 精准 把 控 。 
1.2 基于 大 数据 采集 选 题 信息 

在 大 数据 时 代 ， 人 们 的 需求 开始 透明 化 ， 通 过 大 数 
据 的 使 用 ， 将 用 户 对 图 书 的 购买 行为 进行 分 析 ， 了 解 图 
书市 场 的 动态 变化 。 在 图 书 编辑 领域 ， 选 题 工作 不 仅 要 
充分 利用 大 数据 ， 还 要 对 图 书 购 买 需求 进行 预测 ， 扩 展 
数据 所 反映 的 图 书 价值 。 

大 数据 的 影响 越 来 越 广 泛 ， 已 经 逐渐 渗透 到 人 们 生 
活 的 方方面面 。" 大 数据 正在 改变 着 人 们 的 生活 方式 ， 
其 数据 信息 处 理 的 结果 ， 有 可 能 比 业 内 资深 人士 预测 得 
更 加 准确 。 传 统 的 选 题 信息 采集 工作 ， 局 限于 策划 者 的 
言 息 收集 ， 高 度 依赖 于 优秀 编辑 的 经 验 判断 。 有 些 时 候 ， 
图 书 编辑 人 员 会 出 现 错失 良机 的 现象 ， 导 致 图 书信 息 采 
集 不 准确 ， 对 同期 的 图 书 销售 造成 影响 。 而 本 文 基于 大 
数据 对 图 书 选 题 信息 进行 采集 ， 通 过 数据 的 全 面 收 集 和 
分 析 ， 让 数据 说 话 ， 准 确 地 预测 图 书 销量 信息 与 受 欢 迎 
程度 。" 

在 此 预测 环境 下 , 可 以 增强 图 书信 息 的 选 题 准确 性 ， 
并 满足 读者 需求 。 大 数据 的 采集 工作 ， 主 要 通过 对 图 书 
市 场 的 精准 分 析 ， 完 整地 把 控 图 书市 场 需求 ， 同 时 反 向 
运作 也 同样 适用 ， 如 通过 对 不 同年 龄 段 的 喜好 ， 进 行书 
籍 的 推送 。 以 青少年 为 例 ， 可 以 推送 一 些 具 有 丰富 科学 
知识 的 小 说 ,不仅 可 以 增加 阅读 兴趣 ， 还 可 以 学 习 到 相 
关 知 识 。 对 中 老年 人 来 说 ， 多 推送 一 些 她 们 年 轻 时 代 的 
故事 ， 可 以 使 其 回忆 起 年 轻 的 生活 ， 并 对 未 来 的 道路 充 
满 希 望 。 我 国 目 前 有 500 多 家 出 版 社 以 及 相当 数量 的 民 
营 图 书 策划 公司 ， 图 书 编辑 队伍 庞大 ,但 是 图 书 选 题 的 
主题 相对 欧美 国家 要 少 ， 每 年 畅销 书 数量 与 整体 行业 销 
售 量 不 成 正比 。 本 文 认为 ， 主 要 是 因为 图 书 编辑 没有 对 
市 场 的 需求 形成 正确 的 理解 把 握 ， 获 取 到 的 信息 不 能 够 
支撑 编辑 团队 的 真正 成 长 。 大 数据 时 代 的 到 来 ， 为 图 书 
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行 初步 规划 ， 再 利用 大 数据 深度 挖掘 图 书信 息 ， 真 正 意 
义 上 满足 图 书市 场 的 发 展 需求 。 此 外 ， 大 数据 的 应 用 经 
过 多 年 积累 ， 可 以 称 其 为 大 数据 智能 平台 ， 通 过 大 数据 
对 用 户 的 购买 行为 来 获取 数据 情报 ， 得 到 图 书 的 有 效 价 
值 信息 。 使 用 大 数据 的 后 台 技 术 ， 对 相关 用 户 的 图 书 购 
买 行为 进行 记录 ， 收 集 用 户 的 搜索 关键 字 ， 使 网 书 选 题 
策划 在 行业 领域 内 拥有 领先 优势 。 任 何 产业 的 发 展 ， 都 
会 结合 最 新 的 尖端 技术 ， 图 书 行业 也 不 例外 ， 通 过 大 数 
据 的 融合 ， 可 以 将 图 书 数据 精准 地 把 控 ， 得 出 准确 的 数 
据 基础 ， 保 证 图 书 选 题 策 划 的 精准 性 ， 对 图 书 行业 的 发 
展 创造 潜力 条 件 。 综 上 所 述 ， 本 文 设计 的 图 书 选 题 策划 
方法 ,通过 大 数据 的 介入 ,为 图 书 编辑 提供 一 个 接地 气 的 、 
强 有 力 的 、 具 有 真实 市 场 指导 意义 的 辅助 工具 。 
1.4 实现 数据 驱动 的 选 题 策划 模式 

为 了 实现 数据 驱动 的 选 题 策划 模式 ， 本 文 设计 了 在 


数据 挖掘 下 的 数据 库 ， 如 下 表 1 所 示 。 
表 1 核心 数据 库 
数据 类 型 核心 数据 
bookID_scoreStar 
PK 
dateNum_location pricecurrent 
FK bookname_isbncode publisher_pageNum 
versionnumber price_seriensname 
reviewed_ bookDate sorceStar 
FK1 2 
userLevel_location praiseGood 
Bookid type_scoreDate location level 


如 表 1 所 示 ， 为 本 文 设计 的 核心 数据 库 ， 根据 此 数 
据 库 的 设计 ， 可 以 提取 图 书 相 关 信息 ， 通 过 图 书 ID， 建 
立 图 书 链接 ， 从 而 得 到 相关 数据 的 属性 信息 。 
功能 数据 库 设计 如 下 表 2 所 示 。 
表 2 功能 数据 库 


数据 类 型 功能 


Function buildBookUrl 


编辑 指明 了 方向 ， 那 就 是 利用 数据 支撑 ， 收 集 有 效 准确 
的 选 题 信息 ， 切 实 策 划 符 合 市 场 需求 的 图 书 产 品 ， 并 提 
高 选 题 质量 ， 促 进 图 书市 场 的 繁 来 与 发 展 。 
1.3 进行 数据 驱动 选 题 策 划 的 可 行 性 分 析 

从 市 场 层面 分 析 ， 教育 类 图 书 的 编辑 主题 与 内 容 框 
加 ,可 以 通过 筛选 教育 数据 , 将 其 进行 供应 需求 的 分 析 。 
由 于 我 国 对 教育 行业 的 重视 程度 ， 图 书市 场 中 教育 类 图 
书 所 占 比 重 较 大 ， 在 庞大 的 教育 图 书 中 ， 图 书 编辑 必须 
提前 解决 选 题 内 容 框 架 , 减少 潜在 的 苋 争 。 因 此 ， 对 教 
育 类 的 图 书 选 题 策划 过 程 中 ， 符 合 市 场 要 求 与 竞争 的 有 
效 资源 信息 方面 至 关 重 要 。 从 供给 层面 分 析 ， 需 要 图 书 
编辑 参与 图 书 数据 库 的 搭建 。™ 并 利用 专业 化 的 指导 和 
时 效 性 的 数据 ， 对 教育 类 图 书 的 选 题 进行 调研 ， 并 利用 
优秀 编辑 相关 教育 图 书 方面 的 编辑 经 验 ， 对 选 题 内 容 进 


Description 拼装 图 书 高 级 搜索 的 URL 
Param isbnCode， 图 书 的 ISBN 号 
Return : 图 书 高 级 搜索 中 对 应 ISBN 号 的 URL 


表 2 所 示 为 功能 数据 库 的 设计 ， 通 过 搜索 图 书 
URL， 得 出 相关 图 书 的 信息 数据 。 

数据 存储 库 的 设计 如 下 表 3 所 示 。 
表 3 ”数据 存储 库 


数据 类 型 存储 位 置 
Studo vi /etc/sysconfig/netwok 
Vi /etc/hosts 
Studo service iptables stop 


Ssh 一 keygen 一 t rsa ~/.ssh/id_rsa.pub 


Cp ~/.ssh/authorized_keys 


Hadoop Damenode 一 format start—all.sh 


ChinaXiv 合 作 期 刊 
i 


通过 此 数据 库 的 设计 ， 可 以 实现 选 题 策划 的 信息 读 。 表 5 实验 结果 
取 、 更 新 、 删 除 , 以 及 增加 等 操作 ,保证 图 书 数据 的 丰富 性 。 ”| 数据 量 | 代 统 先是 策 则 方法 图 书 | 本 文 设计 选 同 策 划 方法 图 书 先是 
2. 实验 100 8.90% 35.62% 
为 了 验证 本 文 设计 方法 是 否 具 有 实效 性 ， 在 此 对 其 200 12.41% 40.25% 
2.1 实验 准备 400 19.25% 52.15% 
由 于 图 书市 场 环境 较为 复杂 ， 本 文 利用 分 布 式 将 图 | es 
书信 息 集群 分 为 5 个 节点 ， 使 用 Master 与 CentOS 为 主 600 24.36% 74.26% 
要 操作 系统 ， 以 Linux 为 主要 服务 器 ，CPU 主 频 保持 在 i ee 人 
白米 > bv | > 4 日 
3.5CHz， 信 息 数 据 存 储 为 8C， 存 储 空间 为 T， 由 此 得 出 。 和 a ee 
的 集群 参数 如 下 表 4 所 示 。 900 40.21% 99.82% 
表 4 图 书 集群 参数 表 
1000 56.23% 100% 
序号 | 节点 名 称 集群 IP ID 数据 存储 位 置 
NE 六 K 下 二 晶 由 4 | 
1 cloud1 10.5.110.242 | hadoopusr | /opt/hadoop—1.2.1 到 了 100%， 可 以 适应 六 数据 环境 ， 保证 选 题 的 精确 性 。 
符合 本 文 研究 目的 。 
S 2 cloud2 10.5.110.243 | hadoopusr | /opt/hadoop—1.2.1 结语 
3 cloud3 10.5.110.244 | hadoopusr | /opt/hadoop—1.2.1 近年 来 ， 在 大 数据 的 背景 下 ， 各 行 各 业 得 到 了 空前 
CN 
”> 4 cloud4 10.5.110.245 | hadoopusr | /opt/hadoop—1.2.1 的 发 展 ， 为 我 国 经 济 进 步 创 造 了 条 件 。 图 书 编辑 作为 人 
们 学 习 知 识 的 铺路 者 ， 对 推动 人 类 精神 文明 的 建设 起 到 
©O clou D 0 adoopusr opt/hadoop— 
SS | PY%W0%P 3 | 了 相当 重要 的 作用 。 传 统 图 书 选 题 策划 较为 主观 化 ， 其 
S 选 题 受 欢 迎 程 度 平均 水 平 较 低 ， 目 前 已 经 不 再 适应 图 书 
一 如 表 4 所 示 ， 在 此 参数 下 ， 对 图 书 数 据 进行 可 行 性 ”传播 需求 ， 无 法 巩固 社会 经 济 效益 。 基 于 此 ， 本 文 以 大 
CO。 评估。 为 了 提高 实验 的 精准 度 ， 本 文 从 图 上 数据 量 的 100 。 数据 为 前 提 ， 设 计 园 是 策划 方法 ， 所 弃 传 统 方法 的 缺点， 
© 万 行 至 1000 万 行 之 间 的 图 书 进行 数据 分 析 ， 在 大 数据 首 通过 与 大 数据 的 融合 ， 对 图 书 选 题 进行 可 行 性 分 析 ， 科 
CN 景 F， 得 出 图 书信 息 集群 的 5 个 节点 图 书 选 题 受 欢迎 程 学 指导 市 场 图 书 选 题 策划 方向 ， 提 高 选 题 受 欢迎 程度 ， 
~> 度 如 下 图 2 所 示 。 以 期 为 今后 图 书 行业 的 深化 改革 与 建设 添 砖 加 瓦 。 
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